在本文中,我们使用来自离散事件系统的监督控制理论的概念来提出一种学习用于有限状态马尔可夫决策过程(MDP)的最佳控制政策的方法,其中(仅)某些行动序列被视为不安全(分别安全)。我们假设在有限状态自动化方面给出了被视为不安全和/或安全的一组动作序列;并提出一个监督员,该主管禁用MDP的每个状态下的动作子集,以便满足对操作序列的约束。然后我们介绍了一个版本的Q学习算法,用于在存在非马尔维亚人动作序列和状态约束时学习最佳策略,在那里我们使用奖励机的开发来处理状态约束。我们使用一个示例说明了该方法,该方法捕获基于自动数据的自动数据的实用性,用于加强学习的非马车状态和动作规范,并在该设置中显示模拟结果。
translated by 谷歌翻译